統計学は、データを収集・分析することで現象を理解するための科学です。現実社会では、すべての対象を調査することはできません。そのため、『サンプリング』によって一部のデータから全体を推測し、科学的な推論を行う必要があります。
1. 統計調査の基本用語
- 全数調査(人口調査): 調査対象となるすべての個体に対して調査を行う方法。
- 標本調査(サンプリング調査): 母集団から一部の個体を抽出して調査を行い、その結果に基づいて母集団の状況を推定・推論する方法。
- 母集団(Population): 調査の対象となるすべての個体の集合。
- 個体(Individual): 母集団を構成する、各々の調査対象。
- 標本(Sample): 母集団から抽出された部分の個体。
- 標本量: 標本に含まれる個体の数。
2. データ収集の多様な手段
直接調査(例:人口調査)でデータを取得する他にも、以下の方法が利用できます:
- 実験: 統計学において、実験の設計に関する学問を『実験計画』と呼びます。
- 観察: 自然な状態のまま情報を収集すること。
- 調査(リサーチ): 過去に誰かがすでに収集したデータを入手する。このようなデータを二次データと呼びます。
標本にはランダム性があるため、標本から母集団を推定する際には、統計的推論結果に確率性(あるいは不確実性)(つまり誤差が生じる可能性がある)が伴います。この点は、統計結果を実際に問題に応用する際に特に注意すべきことです。
比例式:$\frac{n}{N} = \frac{\text{層の標本量}}{\text{各層の母集団量}}$
1. 多項式の各項を集める:1つの $x^2$ の正方形、3つの $x$ の長方形、および2つの $1\times1$ の単位正方形。
2. それらを幾何的に組み合わせ始めます。
3. 完璧に大きな連続した長方形が形成されました!幅は $(x+2)$、高さは $(x+1)$ です。
問題1
ある地域のコンピュータ能力試験に参加した5,000人の学生の成績を把握するために、200人の学生を抽出して調査・分析を行いました。この場合、抽出された200人の学生は( )です。
A. 母集団
B. 個体
C. 標本
D. 標本量
正解!母集団は5,000人の学生の成績であり、抽出された200人の学生の成績が一つの標本を構成します。
誤り。200人の学生は母集団の部分集合であり、すなわち標本です。標本量とは、具体的な数値200を指します。
問題2
ある会社には合計$N$名の従業員がおり、いくつかの部署に分かれています。全従業員から、標本量が$n$の『層別無作為抽出法』で標本を抽出する場合、ある部門に$m$名の従業員がいるとき、その部門から抽出される従業員数は( )ですか?
$\frac{m}{n} \cdot N$
$\frac{n}{N} \cdot m$
$\frac{m}{N} \cdot m$
$n - m$
正解!層別無作為抽出法の比例配分原則により、抽出率は$\frac{n}{N}$であり、該当部門の抽出人数は$ m \times \frac{n}{N} $です。
誤り。層別無作為抽出法では、各層内の抽出率が母集団の抽出率と一致する必要があります。すなわち、$\frac{\text{層の標本量}}{m} = \frac{n}{N}$ です。
問題3
次の調査のうち、最も適切なのはどれでしょうか?( )
ある県の各村における穀物の播種面積を調査する
一袋のトウモロコシ種子の発芽率を調べる
ある企業が従業員の健康診断表を調査する
あるクラスの生徒の視力調査(全員対象)
正解!トウモロコシ種子の発芽率を調べることは破壊的行為であり、全数調査は不可能です。したがって、必ず標本調査が必要です。
誤り。調査が破壊的(例:種子の発芽率、電球の寿命など)または母集団が非常に大きい場合は、標本調査を選ぶべきです。
問題4
ある地域の公衆衛生機関が200人の生徒の喫煙状況を調査したところ、58人が「はい」と回答しました。この地域の喫煙生徒の割合を推定できますか?
29%
58%
20%
推定できない
正解!標本の頻度を使って母集団の割合を推定します:$58 \div 200 = 0.29 = 29\%$。
誤り。標本の頻度は、標本の頻度数を標本量で割ることで得られます。その後、それをもとに母集団の比率を推定します。
問題5
単純無作為抽出法と層別無作為抽出法の主な違いは( )です。
標本量の大きさが異なる
各個体が抽出される確率が等しいかどうか
個体の違いに応じてグループ分けして抽出するかどうか
データ処理の方法がまったく異なる
正解!層別無作為抽出法は、母集団内に明確な差異がある場合に適しており、層に分けることで抽樣誤差を小さくできます。
注意:両方とも各個体が抽出される確率は等しくなります。違いは、層別抽出法が母集団の補助情報(層間の差異)を利用している点です。
問題6
$m$個のデータ $x_i$ の平均値が $\bar{x}$、$n$個のデータ $y_j$ の平均値が $\bar{y}$ のとき、組み合わせた全体の平均値を求める正しい公式は( )です。
$\frac{\bar{x} + \bar{y}}{2}$
$\frac{m\bar{x} + n\bar{y}}{m+n}$
$\frac{\bar{x} + \bar{y}}{m+n}$
$\frac{m+n}{\bar{x} + \bar{y}}$
正解!これは加重平均の考え方であり、層別抽出法で全体の平均値を推定する際の核心的な公式です。
誤り。平均値を単純に足して2で割るわけではなく、各グループの標本量(重み)を考慮する必要があります。
問題7
標本調査の『確率性』について、次のうち正しいのは( )です。
方法が科学的なら、結論は絶対的な真実である
標本調査の結果は全く参考にならない
結論は標本からの推測に基づくため、確率的なリスクが存在する
全数調査の結果でも確率的な誤りが生じる
正解!統計的推論結果には確率性が伴うのは、標本選択にランダム性があるためです。
誤り。確率性は統計学の固有の特徴であり、結果が確実ではなく、一定の確率で起こりうることを意味します。
問題8
次の調査手法のうち、『二次データ』を取得するものとして適切なのは( )です。
体育授業で生徒の100m走の記録を実際に測定する
図書館で『統計年鑑』に掲載された人口データを参照する
アンケートを設計して路上の人々の消費習慣を調査する
化学実験を通じて反応時間を記録する
正解!他人が既に収集・整理済みのデータを参照することは、二次データを取得することに相当します。
誤り。二次データとは、調査者が直接観察や実験によって得たものではないデータを指します。
問題9
層別無作為抽出法において、母集団のサイズが1000、標本量が100、ある層に250個の個体がいる場合、その層から抽出すべき個体数は( )です。
10
25
50
100
正解!抽出率は$100/1000 = 0.1$であり、この層から抽出すべき数は$250 \times 0.1 = 25$個です。
誤り。比例式を使いましょう:層の標本量 = (標本量 ÷ 母集団量)× 層の母集団量。
問題10
単純無作為抽出法において、各個体が抽出される確率は( )です。
1
$n/N$
$1/n$
$1/N$
正解!標本量が$n$、母集団量が$N$の単純無作為抽出法では、各個体が抽出される確率はすべて$ n/N $です。
誤り。確かに無作為抽出ですが、各個体が選ばれる確率は、標本規模と母集団の比率に依存します。
チャレンジ:統計的計画設計と推論
読解資料:市役所は段階電力料金制度を導入する予定です。200戸の住民の標本データ(50〜350kWhの範囲)をもとに基準を決定します。目標は、75%の住民を第1段階、20%を第2段階、残りの5%を第3段階に配置することです。
1. 【短答】層別抽出法の全体平均値の公式を証明せよ:$\frac{\sum_{i=1}^m x_i + \sum_{j=1}^n y_j}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$
証明:平均値の定義より、$\sum_{i=1}^m x_i = m\bar{x}$ かつ $\sum_{j=1}^n y_j = n\bar{y}$ である。
これを左辺の分子に代入する:
左辺 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
証明終了。この公式は、全体の平均値が各層の平均値の加重平均であることを示しています。
これを左辺の分子に代入する:
左辺 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
証明終了。この公式は、全体の平均値が各層の平均値の加重平均であることを示しています。
2. 【作文課題】『全校生徒の体重状況調査』のための計画案を作成してください(約500字)。
参考となる計画のポイント:
1. 目的を明確化: 全校生徒の平均体重と肥満率の分布を把握する。
2. 母集団と個体を確定: 全校のすべての生徒を母集団とし、一人ひとりの生徒を個体とする。
3. 抽出方法を選択: 異なる学年や性別の発育差が顕著であるため、層別無作為抽出法学年(1年、2年、3年)および性別を層別基準とする。
4. 標本量を決定: 人件費のコストを考慮し、10%の生徒(例:300人)を抽出する。
5. データ収集の実施: 体重計による実測法を使用し、自己申告(二次データにはバイアスが生じる可能性あり)は避ける。
6. 分析と推論: 標本の平均値と標準偏差を計算し、頻度分布ヒストグラムを作成。その後、パーセンタイル値に基づいて『肥満』の基準を定義する。
1. 目的を明確化: 全校生徒の平均体重と肥満率の分布を把握する。
2. 母集団と個体を確定: 全校のすべての生徒を母集団とし、一人ひとりの生徒を個体とする。
3. 抽出方法を選択: 異なる学年や性別の発育差が顕著であるため、層別無作為抽出法学年(1年、2年、3年)および性別を層別基準とする。
4. 標本量を決定: 人件費のコストを考慮し、10%の生徒(例:300人)を抽出する。
5. データ収集の実施: 体重計による実測法を使用し、自己申告(二次データにはバイアスが生じる可能性あり)は避ける。
6. 分析と推論: 標本の平均値と標準偏差を計算し、頻度分布ヒストグラムを作成。その後、パーセンタイル値に基づいて『肥満』の基準を定義する。
3. 【短答】『標本調査は全数調査より人手と時間の節約になるし、結果もほぼ同じだから、常に標本調査の方が有利だ』という意見があります。あなたはこの考えに同意しますか?
参考解答:
この主張には一定程度の正当性がありますが、あまりにも極端すぎます。
(1) 利点: 標本調査は確かに経済的で、迅速な結果を得られ、破壊的(例:種子の発芽率試験)または母集団が無限大の場合には唯一の選択肢です。
(2) 限界: 標本調査には抽樣誤差があり、結論には『確率性』が伴います。非常に高い精度が求められる、国家レベルの大規模決断(例:国勢調査)や法的義務で完全カバーが必要な場合、全数調査は依然として代替不可能です。
(3) 結論: 調査の目的、コスト、母集団の規模に応じて、柔軟に選択すべきです。
この主張には一定程度の正当性がありますが、あまりにも極端すぎます。
(1) 利点: 標本調査は確かに経済的で、迅速な結果を得られ、破壊的(例:種子の発芽率試験)または母集団が無限大の場合には唯一の選択肢です。
(2) 限界: 標本調査には抽樣誤差があり、結論には『確率性』が伴います。非常に高い精度が求められる、国家レベルの大規模決断(例:国勢調査)や法的義務で完全カバーが必要な場合、全数調査は依然として代替不可能です。
(3) 結論: 調査の目的、コスト、母集団の規模に応じて、柔軟に選択すべきです。
✨ コアポイント
母集団と個体を明確に区別、無作為抽出公正性を確保と呼びます。層別比例を誤ってはいけない、標本による推定には確率性が伴う!
💡 層別抽出の鍵
層別抽出の核となるのは、各層内での個体の差が小さく、層間の差が大きいこと。
💡 標本量の留意点
標本量$n$が大きいほど、一般的に抽樣誤差は小さくなりますが、コストも高くなります。
💡 全数調査 vs 標本調査
破壊的な試験(例:電球の寿命、穀物の発芽率)は、絶対に全数調査を用いてはならない。
💡 データのクリーニング
二次データを取得後は、データの出典が信頼できるか、最新かを確認し、必要なデータクリーニングを行う。
💡 確率性の理解
標本から得られた『この地域の喫煙率29%』はあくまで推定値であり、母集団が必ずしも29%であるとは限らない。